行动识别旨在理解人类行为并预测每个行动的标签。最近,Vision Transformer(VIT)在动作识别方面取得了出色的性能,该识别对视频中的空间和时间索引上的长序列进行了建模。完全连接的自我发言层是香草变压器的基本密钥。但是,视觉变压器模型的冗余体系结构忽略了视频框架贴片的局部性,这涉及非信息令牌,并可能导致计算复杂性的提高。为了解决此问题,我们提出了一个基于注意的视频视觉变压器(𝑘 -Vivit)网络以进行动作识别。我们对视频视觉变压器(Vivit)而不是原始的自我注意力采用𝑘 -NN的注意,这可以优化训练过程并忽略输入序列中无关或嘈杂的令牌。我们在UCF101和HMDB51数据集上进行实验,以验证我们的模型的有效性。实验结果表明,与这些动作识别数据集中的几个最新模型相比,所提出的Vivit具有优越的精度。
主要关键词